Reinforcement Learning (RL) is a popular machine learning paradigm where intelligent agents interact with the environment to fulfill a long-term goal. Driven by the resurgence of deep learning, Deep RL (DRL) has witnessed great success over a wide spectrum of complex control tasks. Despite the encouraging results achieved, the deep neural network-based backbone is widely deemed as a black box that impedes practitioners to trust and employ trained agents in realistic scenarios where high security and reliability are essential. To alleviate this issue, a large volume of literature devoted to shedding light on the inner workings of the intelligent agents has been proposed, by constructing intrinsic interpretability or post-hoc explainability. In this survey, we provide a comprehensive review of existing works on eXplainable RL (XRL) and introduce a new taxonomy where prior works are clearly categorized into model-explaining, reward-explaining, state-explaining, and task-explaining methods. We also review and highlight RL methods that conversely leverage human knowledge to promote learning efficiency and performance of agents while this kind of method is often ignored in XRL field. Some challenges and opportunities in XRL are discussed. This survey intends to provide a high-level summarization of XRL and to motivate future research on more effective XRL solutions. Corresponding open source codes are collected and categorized at https://github.com/Plankson/awesome-explainable-reinforcement-learning.
translated by 谷歌翻译
深层合作的多方强化学习已经证明了其在各种复杂的控制任务上取得了巨大的成功。但是,多学院学习的最新进展主要集中在价值分解上,而使实体交互仍然交织在一起,这很容易导致对实体之间的嘈杂相互作用过度拟合。在这项工作中,我们引入了一种新型的交互模式分离(OPT)方法,以将关节值函数不仅置于分散执行的代理值函数中,还将实体交互作用到交互原型中,每种都代表了潜在的交互作用模式在实体的子组中。 OPT促进了无关实体之间的嘈杂相互作用,从而显着提高了普遍性和可解释性。具体而言,OPT引入了稀疏分歧机制,以鼓励发现的相互作用原型之间的稀疏性和多样性。然后,该模型通过具有可学习权重的聚合器选择将这些原型重组为紧凑的交互模式。为了减轻部分可观察性引起的训练不稳定性问题,我们建议最大程度地提高聚合权重与每个代理的历史行为之间的相互信息。单任务和多任务基准的实验表明,所提出的方法得出的结果优于最先进的对应。我们的代码将公开可用。
translated by 谷歌翻译
尽管取得了令人鼓舞的结果,但最先进的交互式强化学习方案依赖于以连续监控或预定义的规则的形式从顾问专家那里获得监督信号,这不可避免地导致了繁琐而昂贵的学习过程。在本文中,我们介绍了一项新型的倡议顾问,在循环演员批判框架中被称为Ask-AC,该框架用双向学习者的实用主义者代替了单方面的顾问指导机制,从而实现了自定义的和有效的范围学习者和顾问之间的消息交换。 Ask-AC的核心是两个互补的组件,即动作请求者和自适应状态选择器,可以很容易地将其纳入各种离散的参与者 - 批判性架构中。前一个组件允许代理商在不确定状态的存在下首次寻求顾问干预,而后者则确定了前者可能遗漏的不稳定状态,尤其是在环境变化时,然后学会了促进对此类国家的询问行动。对固定环境和非平稳环境以及不同参与者 - 评分骨架的实验结果表明,所提出的框架显着提高了代理的学习效率,并与连续顾问监控获得的框架与表现相同。
translated by 谷歌翻译
虽然深度学习在电力系统的瞬态稳定性评估方面取得了令人印象深刻的进步,但不足和不平衡的样本仍然捕获数据驱动方法的培训效果。本文提出了一种基于条件平板生成的对冲网络(CTGAN)的可控样本生成框架,以产生指定的瞬态稳定性样本​​。为了适应瞬态稳定性样本​​的复杂特征分布,所提出的框架首先将样本模拟为表格数据,并使用高斯混合模型来标准化表格数据。然后我们将多个条件转换为单个条件向量,以实现多条件生成。此外,本文介绍了三个评估度量,以验证基于所提出的框架的产生样本的质量。 IEEE 39总线系统上的实验结果表明,该框架有效地平衡了瞬态稳定性样本​​,并显着提高了瞬态稳定性评估模型的性能。
translated by 谷歌翻译
图级表示学习是在整个图表上操作的下游任务的关键步骤。迄今为止,解决此问题的最常见方法是图形池,通常将节点特征取平均或求和以获取图表表示。但是,汇总操作如平均或总结不可避免地会导致大量信息缺失,这可能会严重降低最终性能。在本文中,我们认为对图形下游任务至关重要的是什么不仅包括拓扑结构,还包括对节点采样的分布。因此,由现有图形神经网络(GNN)提供动力,我们提出了一个新的插件池模块,称为分布知识嵌入(DKEPOOL),在其中,将图作为GNNS顶部的发行版改造为分布,池的目标是汇总目标。整个分发信息,而不是通过简单的预定池操作保留特定矢量。事实上,DKEPOOL网络将表示形式分为两个阶段,结构学习和分布学习。结构学习遵循递归邻域聚合方案,以更新获得结构信息的节点特征。另一方面,分布学习省略了节点互连,并更多地关注所有节点所描绘的分布。广泛的实验表明,提出的Dkepool显着且始终如一地优于最新方法。
translated by 谷歌翻译
While large language models (LLMs) have demonstrated impressive capabilities across tasks in language understanding and interactive decision making, their abilities for reasoning (e.g. chain-of-thought prompting) and acting (e.g. action plan generation) have primarily been studied as separate topics. In this paper, we explore the use of LLMs to generate both reasoning traces and task-specific actions in an interleaved manner, allowing for greater synergy between the two: reasoning traces help the model induce, track, and update action plans as well as handle exceptions, while actions allow it to interface with external sources, such as knowledge bases or environments, to gather additional information. We apply our approach, named ReAct, to a diverse set of language and decision making tasks and demonstrate its effectiveness over state-of-the-art baselines, as well as improved human interpretability and trustworthiness over methods without reasoning or acting components. Concretely, on question answering (HotpotQA) and fact verification (Fever), ReAct overcomes issues of hallucination and error propagation prevalent in chain-of-thought reasoning by interacting with a simple Wikipedia API, and generates human-like task-solving trajectories that are more interpretable than baselines without reasoning traces. On two interactive decision making benchmarks (ALFWorld and WebShop), ReAct outperforms imitation and reinforcement learning methods by an absolute success rate of 34% and 10% respectively, while being prompted with only one or two in-context examples. Project site with code: https://react-lm.github.io
translated by 谷歌翻译
在交互式环境中,现有的基础语言基准要么缺乏现实世界的语言元素,要么由于人类参与数据收集或反馈信号而难以扩展。为了弥合这一差距,我们开发了网络商店 - 一个模拟的电子商务网站环境,拥有11.18亿美元的现实世界中的产品和12,087美元的人群文本说明。给定指定产品需求的文本指令,代理需要导航多种类型的网页并发布各种操作以查找,自定义和购买项目。 WebShop为语言基础提供了一些挑战,包括了解构图说明,查询(重新)表述,理解和对网页中的嘈杂文本进行操作以及执行战略探索。我们为这项任务收集了超过1,600美元的人类示范,并使用强化学习,模仿学习以及预训练的图像和语言模型来训练和评估各种代理商。我们的最佳模型达到了任务成功率$ 29 \%$,它优于基于规则的启发式方法($ 9.6 \%$),但远低于人类专家绩效($ 59 \%$)。我们还分析了代理和人类轨迹,并消融各种模型组件,以提供有关具有更强语言理解和决策能力的未来代理人的见解。最后,我们表明,在Amazon.com上进行评估时,在网络商店进行培训的代理商展示了非平凡的SIM转移转移,这表明网络商店在开发可以在野外运行的实用基于网络的代理商中的潜在价值。
translated by 谷歌翻译
文本冒险游戏由于其组合大的动作空间和稀疏奖励而导致加强学习方法具有独特的挑战。这两个因素的相互作用尤为苛刻,因为大型动作空间需要广泛的探索,而稀疏奖励提供有限的反馈。这项工作提出使用多级方法来解决探索 - 与利用困境,该方法明确地解除了每一集中的这两种策略。我们的算法称为Exploit-Dear-Descore(XTX),使用剥削策略开始每个剧集,该策略是从过去的一组有希望的轨迹开始,然后切换到旨在发现导致未经看不见状态空间的新动作的探索政策。该政策分解允许我们将全球决策结合在该空间中返回基于好奇的本地探索的全球决策,这是由人类可能接近这些游戏的情况。我们的方法在杰里科基准(Hausknecht等人,2020)中,在杰里科基准(Hausknecht等人,2020)中,在确定性和随机设置的比赛中显着优于27%和11%的平均正常化分数。在Zork1的游戏中,特别是,XTX获得103的得分,超过先前方法的2倍改善,并且在游戏中推过已经困扰先前的方法的游戏中的几个已知的瓶颈。
translated by 谷歌翻译
虽然深度神经网络的最近进步使得可以呈现高质量的图像,产生照片 - 现实和个性化的谈话头部仍然具有挑战性。通过给定音频,解决此任务的关键是同步唇部运动,同时生成头部移动和眼睛闪烁等个性化属性。在这项工作中,我们观察到输入音频与唇部运动高度相关,而与其他个性化属性的较少相关(例如,头部运动)。受此启发,我们提出了一种基于神经辐射场的新颖框架,以追求高保真和个性化的谈话。具体地,神经辐射场将唇部运动特征和个性化属性作为两个解除态条件采用,其中从音频输入直接预测唇部移动以实现唇部同步的生成。同时,从概率模型采样个性化属性,我们设计了从高斯过程中采样的基于变压器的变差自动码器,以学习合理的和自然的头部姿势和眼睛闪烁。在几个基准上的实验表明,我们的方法比最先进的方法达到了更好的结果。
translated by 谷歌翻译
图表分类是一种非常有影响力的任务,在多数世界应用中起着至关重要的作用,例如分子性质预测和蛋白质函数预测。以有限标记的图表处理新课程,几次拍摄图形分类已成为一座桥梁现有图分类解决方案与实际使用。这项工作探讨了基于度量的元学习的潜力,用于解决少量图形分类。我们突出了考虑解决方案结构特征的重要性,并提出了一种明确考虑全球结构的新框架和输入图的局部结构。在两个数据集,Chembl和三角形上测试了名为SMF-GIN的GIN的实施,其中广泛的实验验证了所提出的方法的有效性。 ChemBl构造成填补缺乏几次拍摄图形分类评估的大规模基准的差距,与SMF-GIN的实施一起释放:https://github.com/jiangshunyu/smf-ing。
translated by 谷歌翻译